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摘要 : 【 目的 ] 为 了 准确 地 给 专利 申请 书 分 配 IPC 分 类 号 , 本 文 提 出 一 种 基于 多 特征 多 分 类 器 集成 的 专利 自动 分 


类 方法 。【 方 法 】 使 用 从 专利 申请 书 中 提取 的 全 词典 TFIDF 特征 、 信 息 增益 词典 TFIDF 特征 、 段 落 向 量 特征 、 


主题 模型 向 量 特征 ,分 别 训 练 朴素 贝 叶 斯 、 支 持 向 量 机 、AdaBoost 分 类 器 , 以 此 构建 特征 -类 别 矩 阵 ， 并 结合 Fl 
权重 矩阵 集成 ， 获 得 最 终 IPC 预测 分 类 号 。 【结果 】 对 2014 年 -2016 年 “发 动机 或 泵 ”领域 的 10 个 小 类 进行 分 
类 , 使 用 Top Prediction、All Categories 和 Two Guesses 三 种 评估 方法 得 到 准确 率 分 别 为 : 78.9%、80.1%、91.2%。 
【局 限 】 训 练 仅 仅 使 用 了 2014 年 -2016 年 共 三 年 的 专利 数据 ,数据 规模 有 限 。【 结 论 】 在 “发 动机 或 泵 领域, 本 文 


方法 能 够 有 效 地 提高 专利 文本 分 类 的 准确 率 。 
关键 词 : 专利 分 类 ”上 段落 向 量 主题 向 量 
分 类 号 : G250 
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分 类 器 集成 


1 3 引 


中 国 知识 产权 局 研究 发 现 趾 ,知识 资源 和 信息 资 
源 是 最 主要 的 智力 资源 , 尤其 是 专利 信息 这 样 基 于 创 
新 、 体 现 技术 的 资源 。 为 了 尽快 找到 和 利用 相关 的 专 
利信 息 , 需要 对 每 一 件 专 利 按照 其 技术 内 容 分 配 相应 
的 专利 分 类 号 外。 专利 分 类 方法 有 很 多 , 其 中 使 用 最 广 
泛 的 是 国际 专利 分 类 (International Patent Classification, 
IPC) 体 系 品 ,其 几乎 包括 了 与 发 明 创造 有 关 的 全 部 知 
识 领 域 , 中 国 、 美 国 以 及 其 他 50 多 个 国家 和 地 区 都 在 
使 用 。 


了 中 


要 有 : 
(1) 类 别 众多 , 层次 复杂 , 最 新 的 IPC 分 类 体系 有 
7 万 多 个 类 别 , 5 个 层级 ; 


(2) 一 件 专利 可 被 赋予 不 止 一 个 分 类 号 ; 

(3) 为 了 扩大 专利 受 保护 范围 ,专利 申请 人 对 于 
专利 申请 的 用 词 过 于 夸大 ; 

(4) 类 别 之 间 相 似 度 高 , 对 特征 的 表达 能 力 要 求 高 ; 

(5) 各 个 类 别 的 专利 数量 严重 不 均衡 , 给 分 类 带 
来 巨大 压力 。 

目前 ,专利 审查 员 主 要 使 用 手工 分 类 , 少量 借助 
机 器 对 专利 进行 分 类 。 对 于 手工 分 类 ,专利 审查 员 需 
要 逐 篇 阅读 专利 文献 以 确定 分 类 号 , 这 样 做 效率 低 、 
费用 高 , 另外 不 同 的 人 主观 判断 存在 差别 ,导致 分 类 
效果 一 致 性 较 差 趾 ,近年 来 , 已 有 许多 学 者 采用 基于 机 
需 学 习 的 方法 对 专利 文本 进行 分 类 研究 ， 主 要 采用 基 
于 词 的 特征 和 单一 分 类 器 进行 分 类 。 然 而 这 种 方法 并 
没有 很 好 地 解决 专利 文本 分 类 这 样 复杂 的 文本 分 类 任 
务 ,因此 , 机 器 分 类 的 准确 率 需 要 进一步 提升 ， 以 辅助 
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面 上 项 目 (项 目 编号 : SQKM201411417013) 的 研究 成 果 之 一 。 


数据 分 析 与 知识 发 现 


专利 审查 员 的 分 类 工作 。 


例如 : 刘 桂 锋 等 中 提出 基于 概率 超 图 的 半 监 督 的 方法 ， 


本 文 构建 了 4 种 特征 : 全 词典 TFIDF 特征 、 信 息 
增益 词典 TFIDF 特征 、 段 落 问 量 特征 、 主 题 模型 向 
量 特征 。 使 用 朴素 贝 叶 斯 (或 高 斯 -朴素 贝 叶 斯 )、 文 
持 向 量 机 、AdaBoost 算法 对 4 种 特征 分 别 训练 得 到 
12 个 分 类 器 。 从 每 一 种 特征 对 应 的 三 个 分 类 器 中 选 
取 分 类 效果 最 好 的 分 类 器 作为 最 优 分 类 器 。 使 用 4 个 
最 优 分 类 器 的 分 类 结果 构建 特征 -类 别 和 矩阵 , 借助 F1 
权重 矩阵 ,对 分 类 器 进行 集成 , 得 到 最 终 分 类 结 


2 相关 研究 


国内 外 一 直 非 常 重视 对 专利 文本 的 利用 和 研究 。 
使 用 机 器 学 习 方 法 对 专利 文本 按 IPC 分 类 号 进行 分 类 
已 经 有 近 20 年 的 历史 。IPC 分 类 体系 从 上 到 下 分 为 部 、 
类 、 子 类 、 组 和 子 组 5 个 级 别 。 从 1971 年 发 布 第 一 个 
版 本 , 每 5 年 更 新 一 些 子 类 以 下 的 级 别 (组 和 子 组 ), 最 
新 IPC 版 本 包含 7 万 多 个 类 别 。 

近年 专利 分 类 主要 从 三 种 角度 展开 研究 工作 : 

(1) 将 主题 模型 应 用 在 特征 中 , 使 特征 包含 主题 
分 布 的 信息 。 例 如 ，Venugopalan 等 外 以 自然 语言 处 理 
为 基础 的 分 层 技 术 , 将 太阳 能 光伏 发 电 领 域 中 10 201 项 
专利 的 主题 与 现实 世界 中 的 类 别 /主题 进行 概率 映射 ; 
廖 列 法 等 加 提出 使 用 LDA 主题 模型 对 专利 进行 分 类 ， 
实验 证 明 LDA 主题 模型 比 KNN 方法 的 准确 率 高 10% 
以 上 。 

(2) 神经 网 络 和 深度 学 习 逐 渐 展露 头角 。 马 苍白 
使 用 标题 和 摘要 ,抽取 瑟 部 10 个 相 邻 的 小 类 1 500 篇 
专利 ,利用 径 向 基 网 络 分 类 ， 准 确 率 达到 72.2%。 马 双 
刚 钙 选取 计算 机 领域 的 发 明 专 利 , 使 用 SVM 对 从 自动 
编码 器 抽取 的 特征 进行 分 类 , 准确 率 比 传统 的 SVM 
提高 3.25%。 

(3) 随 着 专利 数据 量 逐 年 增加 , 并行 化 算法 的 研 
究 得 到 重视 。 孔 旗 中 提出 M3-SVM 算法 , 在 大 规模 、 
不 均衡 数据 集 进行 实验 , 精确 率 、 召 回 率 和 F1 测度 三 
个 指标 都 取得 了 比 传统 SVM 更 好 的 效果 。 

很 多 其 他 研究 工作 也 共同 丰富 着 专利 分 类 方法 。 


Dhttps: /stanfordnlp.github.io/CoreNLP/. 
http: /www.nltk.org/. 
http: //scikit-learn.org/stable/. 


在 少量 标记 样本 的 情况 下 得 到 理想 的 分 类 效果 。 缪 建 
明 等 名 借助 专利 层次 结构 特点 , 仅 使 用 摘要 进行 快速 
自动 分 类 , 大 大 提高 了 时 效 性 。 

在 已 有 研究 的 基础 上 , 本 文 构建 4 种 特征 : 全 部 
词 的 词典 ,以 TFIDF 为 权重 , 构建 代表 全 体 词 特征 的 
DIC_TFIDF 特征 ; 通过 信息 增益 算法 构建 信息 增益 词 
典 ， 以 TFIDF 为 权重 , 构建 代表 关键 词 信息 的 IG_ 
TFIDF 特征 ; 训练 段落 向 量 , 构建 代表 语义 信息 的 
Document Vector 特征 ; 训练 LDA, 得 到 代表 专利 主题 
的 Topic Model Vector 特征 。 基于 以 上 4 组 特征 , 分 别 
训练 NB、SVM、AdaBoost 分 类 器 。 根 据 分 类 效果 挑 
选 最 优 分 类 需 , 构建 特征 -类 别 和 矩阵， 并 结合 F1 权重 
和 矩阵 实现 专利 文本 自动 分 类 。 


3 ”基于 多 特征 分 类 器 集成 的 专利 文本 分 类 


系统 整体 框架 如 图 1 所 示 , 分 为 4 个 部 分 : 预 处 
理 ; 构建 4 种 分 类 器 ; 选择 最 优 分 类 器 ( 框 中 S、N、A 
分 别 表示 SVM 、NB 、AdaBoost 分 类 器 ); 分 类 器 集成 。 
3.1 预 处 理 

从 美国 专利 及 商标 局 下 载 的 数据 是 以 周 为 单位 的 
XML 格式 文件 , 解析 成 TXT 格式 文本 , 存 人 MySQL 
数据 库 。 抽 取 发 明 名 称 、 摘 要 、 权 利 要 求 、 详 细 说 明 、 
申请 人 、 发 明 人 等 信息 ,对 其 进行 分 词 、 共 指 消解 ”、 
词 干 还 原 等 预 处 理 。 

3.2 4 组 特征 的 构建 

本 文 构建 4 组 特征 ， 分 别 如 下 : 

(1) 针对 预 处 理 后 的 数据 统计 词典 , 每 篇 专利 按照 
词典 顺序 构建 词 频 和 矩阵。 根据 词 频 和 矩阵 计算 TFIDF” 
值得 到 代表 全 局 信息 的 全 词典 的 TFIDF 权重 的 特征 
向 量 。 

(2) 使 用 信息 增益 的 方法 , 计算 每 个 词 对 系统 贡 
献 值 ， 从 大 到 小 排列 。 根据 对 比 实验 , 选择 前 4351 个 
词 。 以 此 构建 信息 增益 词典 、 词 频 矩 阵 ,， 进 而 计算 
TFIDF 值 。 根 据 以 上 信息 得 到 代表 关键 词 信息 的 信息 
增益 词典 的 TFIDF 权重 特征 向 量 。 


Data Analysis and Knowledge Discovery 


201712.01597v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


Pe ee RN EE Ee es 二 
| 获取 专利 数据 | 
| 
| : | 
数据 解析 ， 存 入 MySQL 数 据 库 | 
| J | 
| k 指 消解 ， 去 停 词 ， 词 干 还原 | 
和 


-| 


EE ir 1 三 1 
1 1 11 1 
| 11 11 1 
Il S N AIIIlS N AIlIIIlS N Al 
1 1 1 11 1 
1 1 1 11 1 
1 11 | 11 | 1 
1 1 11 1 
| DIC_TFIDF | | IG_ TFIDF | | Document Vector | 


| | bh 1 1 你 
i 守 息 增益 训练 训练 
1 证 全 词典 “11 言 息 1 1 Y 上 | 
| 四 |! 构建 全 局 1 信息 增益 1 ”段落 向 量 | 1 Topic Model ! | 
1 1 1 1 
维 1 11 J 1 1 1 1 1 | 
| 特 1 11 1 1 1 .3 1 
山 1 本 11 本 1 1 1 1 1 
征 1 TFIDF 权 重 11 TFIDF 权 重 11 醒 | | | 
| 的 1 11 1 | 1 1 ! 
a ' 看 
| 建 | 1! | 1 二 | 1 - ! 
| DIC_TFIDF [| IG_TFIDF 1 | ocuiney | | Topic Model | | 
1 11 11 Vector 有 Vector 1 
1: :| 


-Es 


ms 


1 
Topic Model Vector | 

1 

1 


r 
| 
1|S N A 
1 
1 
1 
1 
1 
最 优 分 类 器 


Ut 


一 1 


构建 特征 -类 别 概率 和 矩阵、 借助 F1 置 信 度 矩阵 


| 


得 到 分 类 结果 


SN 
丸 洗 缆 兹 阅 | | 问 尊 他 可 池 第 芝 


图 1 系统 整体 设计 框架 


(3) 由 于 词 袋 模型 有 两 点 主要 的 缺陷 : 丢失 了 词 人 
与 词 之 间 顺 序 的 特征 ; 忽略 了 词 的 语义 信息 。 因 此 为 
每 篇 专利 设计 了 包含 语义 的 段落 向 量 (Document 


Average/Concatenate 


长 成 | 


Vector)。 

Le 等 外 使 用 段落 向 量 的 分 布 式 记忆 模型 { { 
(Distributed Memory Model of Paragraph Vector 训练 PP W W W 
段落 向 量 。 段 落 向 量 模型 在 Word2Vec 模型 0 基础 

Paragraph ID the cat sat 
上 增加 一 个 段落 问 量 , 同时 将 每 个 段落 、 每 一 个 词 映 
射 为 唯一 的 向 量 , 如 图 2 所 示 。 图 2 段落 向 量 算法 示意 图 吕 


Dhttp: //radimrehurek.com/gensim/. 
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例如 ,训练 两 个 段落 "there are many animals in 
this room” 和 “the cat sat on table”， 形 成 50 维 的 段落 向 
量 和 50 维 的 词 向 量 。 训 练 阶 段 : 首先 初始 化 一 个 2 行 
50 列 的 D 矩阵 .12 行 50 列 的 W 和 矩阵 和 Softmax 的 参 
数 。 当 使 用 “the”、“cat”、“sat” 预 测 下 一 个 词 时 , 从 D 
中 抽取 出 第 二 段 对 应 的 1 个 段落 向 量 、W 中 抽取 出 
“the” “cat” “saf" 对 应 的 3 个 词 向 量 , 这 4 个 癌 量 求 
平均 (或 求 和 ), 使 用 层次 化 的 Softmax 预测 下 一 个 词 。 
整体 使 用 随机 梯度 下 降 的 方法 训练 , 得 到 D 、W、 
Softmax 的 参数 ,推理 阶段 : 模型 的 W 和 矩阵 和 Softmax 
的 权重 已 固定 , 通过 随机 梯度 下 降 获得 新 段落 的 段落 
向 量 。 

(4) 由 于 每 篇 专利 的 主题 不 同 , 为 专利 文本 设计 
了 基于 主题 模型 的 主题 向 量 。 基 于 主题 模型 的 LDA 算 
法 5 使 用 所 有 训 集 语 料 训练 主题 模型 。 由 于 LDA 不 
仅 限于 “ 见 过 ”的 数据 ， 可 以 通过 训练 好 的 主题 模型 得 
到 一 篇 新 文章 的 主题 向 量 , 并 且 相 似 主题 的 专利 的 主 
题 向 量 也 相似 。 
3.3 ”分 类 器 集成 

使 用 朴素 贝 叶 斯 、 支 持 向 量 机 和 AdaBoost 算法 训 
练 分 类 融 , 对 4 组 特征 分 别 训练 .训练 完成 后 ， 对 测试 
集 进 行 预测 。 在 每 一 组 特征 所 对 应 的 三 个 分 类 器 中 ， 
选择 分 类 效果 最 好 的 作为 该 特征 的 最 优 分 类 器 ,共计 


设 训练 集 有 N 个 类 别 : fw,w，…ww},，aM 个 最 优 
分 类 器 : {C,C…,Cw) 。 对 于 任意 一 个 输入 样本 x， 
令 Pp"(x) 表示 使 用 最 优 分 类 器 C, 计算 该 篇 专利 属于 
w, 的 归 一 化 后 的 值 。 全 部 的 P” (x) 组 成 M 行 N 列 的 
矩阵: 特征 -类 别 概率 矩阵 R(x) 如 公式 (1) 所 示 ， 其 中 
R(x) 的 每 列 都 对 应 一 个 类 别 , 每 行 也 对 应 一 个 特征 的 
最 优 分 类 器 : 


RCO) BCE) - PB) 
Ra- RY BO ~ BO 0) 


BY(x) PY (x) 1 PY (x) 
首先 对 于 确定 最 优 分 类 器 对 各 类 别 预测 结果 的 
准确 性 这 个 问题 , 使 用 最 优 分 类 器 对 各 类 别 进行 分 类 


(DUnited States Patent and Trademark Office: https:/www.uspto.gov/. 


的 概率 值 归 一 化 后 结果 P”(x) 作为 准确 性 的 衡量 标 
准 。 分 类 器 的 决策 依据 是 : 每 个 类 别 计算 出 相应 的 概 
率 值 越 高 ， 则 属于 该 类 别 的 可 能 性 越 高 。 

其 次 , 对 于 多 个 分 类 器 如 何 获 得 更 好 的 集成 效果 
的 问题 , 不同 最 优 分 类 器 对 不 同类 别 的 预测 倾向 不 同 ， 
使 用 每 个 最 优 分 类 器 对 各 类 别 的 Fl 值 作 为 细 粒 度 权 
重 。 例 如 ,最 优 分 类 器 1 认为 样本 x 属于 类 别 1 的 可 
能 性 为 B(x)， 类推 得 到 该 样本 属于 每 种 类 别 的 概率 
值 。 记 概率 最 大 值 对 应 类 别 为 预测 值 , 统计 测试 集 样 
本 的 预测 值 和 真实 值 , 得 到 每 个 分 类 器 对 每 个 类 别 的 
Fl 值 。 由 于 了 Fl 值 同时 兼顾 召回 率 和 精确 率 两 个 指标 ， 
常用 来 衡量 分 类 器 分 类 效果 ， 因 此 使 用 F1 值 作为 分 类 
器 集成 的 权重 。 

Fl 权重 矩阵 如 公式 (2) 所 示 。 


A ol 有 FP” 
Fl Fy? EY 

Fl= 2 2 2 (2) 
on Fy 2 a 


其 中 ，F¥ 表示 最 优 分 类 器 M 将 样本 分 到 第 类 
别 的 Fl 值 。 

使 用 本 文 的 多 特征 多 分 类 器 集成 算法 
(Multi-Feature Multi-Classifier Integration, MFMCJT)， 累 
加 每 个 分 类 需 对 其 预测 结果 的 概率 值 ( P” (x) ) 与 相应 
Fl 权重 (FE ) 的 乘积 。 FE xP” (x) 表示 有 ”的 可 能 
性 , 认为 分 类 器 m 将 样本 x 分 到 类 别 n 是 正确 的 , 也 
是 分 类 带 m 在 多 分 类 融 集 成 中 的 贡献 值 。 则 5, (x) 计 
算 如 公式 (3) 所 示 。 

S,(x)= R(X):F1 


Ud m m (3) 
=》 Fr xP” (x),n=1,2,,N 


m=1 
其 中 , M 为 最 优 分 类 器 的 个 数 , N 为 训练 集中 类 别 
总 数 。 
4 实验 设计 


4.1 实验 语 料 和 实验 环境 
专利 数据 下 载 自 美国 专利 及 商标 局 "(United 
States Patent and Trademark Office), 为 2014 年 -2016 
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年 “发 动机 或 泵 ”(Engine and Pump) 领 域 的 专利 申请 
书 。 选 择 子 类 专利 总 数 超过 800 篇 的 类 别 ， 从 而 得 到 
FOIL、 FOIN、 FO02B、F02C、F02D、F02M、F03D、 
F04B、F04C、F04D 共 10 类 , 总 计 8 000 篇 专利 数据 ， 
其 中 5 500 篇 作为 训练 集 , 2 500 篇 作为 测试 集 。 

实验 使 用 三 台 CentOS7 64bit 操作 系统 、 内 存 
16GB 的 计算 机 。 利 用 Python 和 Java 语言 , 在 
PyCharm 和 Eclipse 下 编写 程序 并 完成 测试 。 整 个 实 
验 阶段 使 用 sklearn、Stanford CoreNLP .gensim、NLTK 
等 依赖 库 。 
4.2 评估 方法 和 评价 标准 

以 经 典 的 准确 率 、 召 回 率 、F1 值 和 精确 率 作为 评 
价 标准 。 由 于 每 篇 专利 的 IPC 分 类 号 非 唯 一 ， 所 以 使 
用 三 种 不 同 的 评估 方法 ,如 图 3 所 示 。Fall 等 由 也 使 
用 了 这 种 评估 方法 。 其 中 Top Prediction 指 分 类 器 给 出 
的 第 一 预测 值 与 第 一 真实 值 进行 匹配 ; Two Guesses 是 
分 类 器 前 两 个 预测 值 与 第 一 真实 值 进行 匹配 ;All 
Categories 表示 分 类 需 给 出 第 一 预测 值 ， 与 前 三 真实 
的 分 类 号 进行 匹配 。 


Top Prediction Two Guesses All Categories 


4.3 4 组 特征 的 构建 结果 

预 处 理 后 所 有 训练 语 料 的 词 作 为 词典 (45 432 维 )。 
构建 每 篇 专利 的 基于 全 词典 的 词 频 向 量 和 矩阵 ， 计 算 
TFIDF 权重 , 得 到 全 词典 TFIDF 特征 。 

使 用 Python 编写 信息 增益 代码 , 计算 每 个 词 对 整 
个 系统 的 贡献 值 即 信息 增益 值 ， 得 到 4 351 维 ， 部 分 结 
果 如 表 1 所 示 。 


表 1 部 分 词 信息 增益 值 
词 ( 词 干 还 原 后 ) 六 息 增益 值 


Smoother 6.64337682087 
vesda 6.64274815818 
undamp 6.64274815818 
engin 6.25488032208 


训练 段落 向 量 时 , 分 别 以 50、100、150 和 200 维 
的 段落 向 量 进行 实验 , 使 用 SVM 对 语 料 进行 测试 , 最 
终 选 定 100 作为 段落 向 量 的 维度 。 

使 用 LDA 算 法 训练 主题 向 量 , 需要 根据 数据 特点 
确定 主题 的 数量 。 由 于 样本 共有 10 个 类 别 , 因此 分 别 
设计 10、12、15、18 和 20 个 主题 的 对 比 实验 , 根据 
实验 结果 最 终 选 择 15 作为 主题 向 量 的 主题 个 数 。 

4.4 选择 最 优 分 类 器 


predict real predict real predict real 
人 @- 国 二 3 每 个 特征 训练 三 个 分 类 器 , 分别 是 : 朴素 贝 叶 基 
OD 画 OO (NB) 或 高 斯 -朴素 贝 叶 斯 (Gaussian-NB)、 支 持 向 量 机 
- - - (SVM) 和 AdaBoost。 由 于 全 字典 特征 维 数 太 高 ， 只 得 
A EN aE 到 基于 朴素 贝 叶 斯 分 类 器 的 分 类 效果 。 所 有 分 类 器 表 
图 3 评估 方法 03] 现 效果 如 表 2 所 示 。 
表 2 各 分 类 器 不 同 特征 下 表现 效果 

分 类 算法 等 征 吨 估 廊 法 准确 率 Fl 值 召回 率 精确 率 
NB 全 字典 TFIDF Top Prediction 71.4% 71.1% 71.4% 72.3% 
NB 信息 增益 TFIDF Top Prediction 43.9% 44.7% 43.9% 46.1% 
SVM 信息 增益 TFIDF Top Prediction 64.6% 64.4% 64.6% 68.0% 
AdaBoost 信息 增益 TFIDF Top Prediction 71.7% 71.9% 71.7% 72.9% 
Gaussian-NB 段落 问 量 Top Prediction 23.3% 21.4% 23.3% 24.3% 
SVM 段落 向 量 Top Prediction 48.4% 48.2% 48.4% 48.7% 
AdabBoost 段落 问 量 Top Prediction 23.6% 23.6% 23.6% 24.1% 
Gaussian-NB 主题 向 量 Top Prediction 39.7% 38.3% 39.7% 39.6% 
SVM 主题 向 量 Top Prediction 41.7% 40.4% 41.7% 42.2% 
AdaBoost 主题 向 量 Top Prediction 41.6% 40.8% 41.6% 40.7% 
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根据 实验 结果 比 对 ,每 组 选择 分 类 效果 最 好 的 分 
类 器 作为 该 特征 的 最 优 分 类 右 。 全 字典 TFIDF 选择 朴 


5 实验 结果 与 分 析 


素 贝 叶 斯 分 类 器 ,信息 增益 TFIDF 特征 选择 AdaBoost ”5.1 实验 结果 
分 类 器 , 段落 向 量 特征 选择 SVM 分 类 器 ， 主题 向 量 特 不 同 特征 组 合 与 分 类 器 集成 的 实验 结果 ,如 表 3 
征 选择 SVM 分 类 器 。 所 示 。 
表 3 不 同 特 征 组 合 与 分 类 器 集成 的 实验 结果 
实验 WE 村 征 算法 准确 率 Fl 值 召回 率 精确 率 
1 All Categories I 全 字典 TFIDF NB 73.6% 73.5% 73.6% 74.6% 
2 All Categories I 信息 增益 TFIDF AdaBoost 74.0% 73.0% 74.0% 76.7% 
3 All Categories II 段落 向 量 SVM 49.4% 49.1% 49.4% 49.6% 
4 All Categories V 主 题 向 量 SVM 42.0% 41.3% 42.0% 41.6% 
5 All Categories I 了、 开 、 信 直接 拼接 Gaussian-NB 31.2% 30.8% 31.2% 31.6% 
6 All Categories 三 、V 特 征 直 接 拼接 SVM 34.4% 33.2% 34.4% 34.1% 
了 All Categories I、 I I NV 投票 72.2% 73.5% 72.2% 74.0% 
= 8 All Categories HII IV MFMCI 54.1% 52.0% 54.1% 56.6% 
<- 一 9 All Categories I 、II、V MFMCI 79.4% 78.8% 79.4% 81.7% 
10 All Categories I、I、 亚 、KV MFMCI 80.1% 79.5% 80.1% 82.4% 
11 Top Prediction I 全 字典 TFIDF NB 71.4% 71.1% 71.4% 72.3% 
12 Top Prediction 信息 增益 TFIDF AdaBoost 71.7% 71.9% 71.7% 72.9% 
13 Top Prediction II 段落 向 量 SVM 48.4% 48.2% 48.4% 48.7% 
= 14 Top Prediction LV 主题 向 量 SVM 41.7% 40.4% 41.7% 42.2% 
15 Top Prediction J 、II、 人 直接 拼接 Gaussian-NB 31.2% 30.8% 31.2% 31.6% 
16 Top Prediction I、 HI、 I NV MFMCI 78.9% 78.2% 78.9% 81.2% 
17 Two Guesses I 全 字典 TFIDF NB 88.1% 88.1% 88.1% 88.4% 
18 Two Guesses [信息 增益 TFIDF AdaBoost 89.4% 89.2% 89.4% 89.8% 
19 Two Guesses II 段落 向 量 SVM 68.6% 68.5% 68.6% 68.7% 
— 20 Two Guesses LV 主题 向 量 SVM 61.8% 61.4% 61.8% 61.9% 
21 Two Guesses I、 I I NV MFMCI 91.2% 91.0% 91.2% 91.7% 


5.2 ”实验 结果 分 析 45 432 维特 征 ,使 用 贝 叶 斯 分 类 效果 最 好 。 维 度 过 高 

从 单 特征 单 分 类 器 的 实验 结果 (1-4、11-14、17-20) 。 对 于 计算 复杂 度 很 高 的 SVM 来 说 很 难 达到 好 的 效果 。 
得 到 综合 实验 效果 是 : 信息 增益 TFIDF 特征 最 优 分 类 。 ”因此 设计 每 种 特征 分 别 训练 三 个 不 同 算法 的 分 类 器 ， 
器 > 全 字典 TFIDF 特征 最 优 分 类 器 > 段落 向 量 特征 最 。 ”从 中 选择 分 类 效果 好 的 作为 最 优 分 类 器 。 


| 


优 分 类 需 > 主 题 向 量 特征 最 优 分 类 需 。 由 此 可 见 ， 对 于 
单个 特征 而 言 , 信息 增益 方法 选择 的 特征 包含 信息 量 
最 大 , 主题 向 量 特征 包含 的 信息 量 最 少 。 全 字典 特征 
总 共有 45 432 维 , 信息 增益 4 351 维 , 段落 向 量 100 
维 , 主题 向 量 仅 仅 15 维 , 特征 维 数 的 差距 巨大 , 是 造 
成 信息 包含 量 不 同 的 原因 之 一 。 然 而 , 并 不 是 特征 维 
数 越 大 , 分 类 效果 一 定 更 好 , 段落 向 量 特征 选择 100 维 
时 的 分 类 效果 比 200 维 效果 好 。 另 外 , 由 于 特征 维度 
的 不 同 , 不 同 算法 的 分 类 效果 也 不 同 。 例 如 ,全 字典 


由 表 3 可 以 看 出 , 采用 本 文 算法 在 三 种 评估 方法 
下 都 取得 最 好 的 准确 率 ，All Categories 达到 80.1%， 
Top Prediction 达到 78.9%, Two Guesses 达到 91.2%。 
由 此 可 以 得 到 4 点 结论 : 

(1) 4 种 特征 包含 的 信息 量 远 大 于 单个 特征 的 信 
息 。 4 种 特征 包含 全 局 单词 的 信息 (全 词典 )、 关 键 词 信 
息 ( 信 息 增益 )、 关 于 语义 的 信息 (段落 向 量 )、 篇 章 主题 
的 信息 (主题 向 量 )。 多 特征 使 得 对 专利 信息 的 描述 更 
有 具 全 局 化 和 立体 化 , 效果 比 片面 的 局 部 的 特征 分 类 效 
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果 好 。 

(2) 信息 增益 TFIDF 特征 是 从 全 字典 中 提取 出 的 
关键 词 特征 。 从 实验 1-2、11-12、17-18 看 到 , 信息 增 
益 TFIDF 最 优 分 类 器 的 分 类 效果 比 全 词典 好 。 但 从 实 
验 8-10 结果 分 析 , 全 字典 特征 更 能 代表 全 局 信息 ,而 
信息 增益 则 相对 局 部 。 此 外 , 它们 对 一 篇 专利 的 预测 
概率 以 及 集成 时 的 Fl 值 完全 不 同 , 如 表 4 所 示 。 因 此 
在 集成 过 程 中 , 全 词典 的 全 局 信息 是 对 信息 增益 的 局 
部 信息 的 补充 。 所 以 , 两 者 与 其 他 两 种 特征 的 最 优 分 
类 需 的 集成 效果 会 远 远 好 于 其 中 一 者 与 其 他 两 种 特征 
最 优 分 类 器 的 集成 效果 。 

表 4 全 词典 TFIDF 最 优 分 类 器 和 信息 增益 TFIDF 


最 优 分 类 器 的 区 别 

FI 值 对 某 篇 专利 预测 概率 值 
IPC 全 词典 信息 增益 全 词典 信息 增益 

分 类 号 TFIDF TFIDF TFIDF TFIDF 

最 优 分 类 器 ”最 优 分 类 器 ”最 优 分 类 器 “最 优 分 类 器 

FOIL 86.1% 83.4% 66.5% 11.342% 
FOIN 78.1% 74.2% 0.6% 10.001% 
FO02B 59.8% 53.8% 10.9% 10.019% 
F02C 76.0% 87.2% 0.6% 9.588% 
F02D 67.1% 58.3% 9.6% 10.022% 
FO02M 57.7% 50.6% 3.2% 10.006% 
F03D 94.1% 96.4% 0.3% 9.035% 
F04B 72.6% 75.6% 7.1% 10.004% 
F04C 74.7% 77.2% 1.0% 9.992% 
F04D 69.0% 62.7% 0.3% 9.989% 


(3) 并 不 是 4 种 特征 随便 结合 到 一 起 就 可 以 提高 
分 类 效果 ,从 表 3 中 实验 5 和 实验 6 得 到 , 将 特征 直接 
拼接 , 分 类 效果 急剧 下 降 。 这 种 做 法 是 无 效 的 ,只 有 将 
特征 有 机 结合 才能 更 好 地 发 挥 各 自 的 优势 。 

(4) 本 文 算法 不 是 对 多 个 特征 分 类 器 的 简单 投 
票 ， 对 比 实验 7 和 实验 10 发 现 , 想 要 有 机 结合 多 个 特 
征 分 类 器 ,需要 抓 住 各 自 特征 分 类 的 优势 , 在 有 优势 
的 地 方 加 大 权重 ,在 劣势 的 地 方 给 予 低 的 权重 。 结合 
Fl 权重 矩阵 与 特征 -类 别 概率 和 矩阵， 最终 得 到 更 好 的 
分 类 效果 。 

马 芳 趾 使 用 径 向 基 神 经 网 络 对 专利 自动 分 类 ( 记 为 
RBFNN), 本 文 工 作 与 其 都 是 将 专利 分 到 小 类 级 别 的 
10 个 类 ,相对 具有 可 比 性 。 本 文 比 马 芳 的 使 用 径 向 基 
神经 网 络 的 分 类 效果 好 , 结果 如 表 5 所 示 。 
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表 5 本 文 与 其 他 工作 效果 对 比 


算法 标准 准确 率 ”Fl 值 ”召回 率 
RBFNN( 径 向 基 网 络 ) Top Prediction 72.2% 70.7% 71.0% 
MFMCI( 本 文 算法 ) Top Prediction 78.9% 78.2% 78.9% 
MFMCI( 本 文 算法 ) AllCategories 80.1% 79.5% 80.1% 
MFMCI( 本 文 算法 ) Two Guesses 91.2% 91.0% 91.2% 


MFMCI 对 各 个 类 别 的 预测 效果 如 表 6 所 示 。 
表 6 MFMCI 对 各 个 类 别 的 预测 效果 


IPC 分 类 号 Fl 值 召回 率 精确 率 
FO1L 86.21% 98.8% 76.5% 
FOIN 85.60% 86.8% 84.4% 
F02B 66.67% 53.2% 89.3% 
F02C 82.93% 81.6% 84.3% 
F02D 73.31% 95.6% 59.5% 
F02M 64.99% 51.6% 87.8% 
F03D 91.01% 97.2% 85.6% 
F04B 79.29% 71.2% 89.5% 
F04C 84.54% 90.8% 79.1% 
F04D 80.87% 74.4% 88.6% 


从 表 6 中 可 以 看 出 , MFMCI 对 FO1L、FO1N、F02C、 
F03D 、F04C 、F04D 等 类 的 分 类 效果 比较 好 ,Fl 值 都 
超过 了 80%。 而 对 F02B 、F02D 、F02M 、F04B 等 类 
的 分 类 效果 不 好 , 究 其 原因 有 以 下 两 点 : 

(1) 这 10 个 类 别 有 非 常 多 的 交叉 和 相似 之 处 ,， 例 
如 最 新 的 IPC 国际 专利 分 类 标准 记载 : F02B: 活塞 式 
内 燃 机 ; 一 般 燃 烧 发 动机 (其 循环 操作 阀 入 F01L; 内 
燃 机 润滑 入 F01M; 其 气流 消音 器 或 排 气 装置 入 FO1N; 
内 燃 机 的 冷却 人 F01P; 燃气 轮机 入 F02C; 利用 燃烧 
生成 物 的 发 动机 装置 人 F02C, F02G)。F02B 代表 “活塞 
式 内 燃 机 ; 一 般 燃 烧 发 动机 ”。 但 是 如 果 是 燃气 轮机 就 
要 转 入 F02C, 若 专 利 是 利用 燃烧 生成 物 的 发 动机 装 
置 也 被 转 和 人 F02C。 

(2) 部 分 专利 申请 人 为 了 扩大 自己 专利 的 权利 范 
围 , 故意 在 申请 书 中 扩大 用 词 。 针 对 这 种 情况 , 机 器 很 难 
仅仅 借助 文本 对 专利 进行 有 效 分 类 , 在 以 后 的 工作 中 ， 
可 以 考虑 引入 专利 申请 中 的 图 像 的 特征 来 提高 效果 。 


6 结 语 


本 文 提出 一 种 多 特征 多 分 类 器 集成 的 专利 自动 分 
类 算法 。 该 方法 以 全 局 词 特征 (全 词典 TFIDF 特征 )、 
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关键 词 特征 (信息 增益 TFIDF 特征 )、 语义 特征 (篇 章 向 
量 特征 )、 主 题 特征 (主题 向 量 特征 ), 分 别 训练 属于 每 
个 特征 最 好 的 分 类 器 作为 最 优 分 类 器 , 构建 特征 -类 
别 概率 矩阵 , 结合 Fl 权重 和 矩阵， 对 发 动机 或 泵 领域 的 
10 个 子 类 进行 分 类 。 与 单 特征 、 直 接 串 联 特征 、 多 特 
征 分 类 器 直接 投票 、 以 及 马 芳 外 的 径 向 基 神 经 网 络 方 
法 的 分 类 效果 进行 对 比 , 能 够 取得 较 好 结果 。 

本 文 的 不 足以 及 未 来 工作 主要 有 : 对 于 专利 申请 
人 故意 扩大 用 词 的 情况 可 以 借助 专利 申请 中 的 图 像 和 
助 分 类 ; 本 文 使 用 了 近 三 年 的 专利 数量 不 足以 支撑 完 
成 组 和 子 组 级 别 的 分 类 。 未 来 研究 可 以 使 用 2001 年 至 
今 近 17 年 的 专利 数据 , 结合 分 布 式 分 类 算法 , 对 专利 
进行 更 深层 次 的 分 类 , 以 进一步 提高 分 类 准确 率 。 
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Patent Classification Based on Multi-feature and Multi-classifier 
Integration 
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? (College of Robotics, Beijing Union University, Beijing 100101, China) 
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Abstract: [Objective] This paper aims to automatically allocate correct IPC to patent applications with the help of 
multi-feature and multi-classifier integration method. [Methods] First, we extracted the TFIDF features of all 
dictionaries and information gains, as well as the vector features of document and topic models from patent applications. 
Then, we used the collected data to train the NB, SVM, and AdaBoost classifiers. Finally, we established the 
feature-class matrix and predicted the final IPC with the Fl weight matrix. [Results] We examined our new method 
with 10 patent classes from 2014 to 2016 im the field of engine and pump. The accuracy of top prediction, all categories, 
and two guesses were 78.9%, 80.1% and 91.2% respectively. [Limitations] The size of training corpus is limited, 
which only includes 3 years patent data. [Conclusions] The proposed method could effectively improve the accuracy of 
patent classification in the field of engine and pump. 


Keywords: Patent Classification Document Vector Topic Model Vector Classifier Integration 


国家 纳米 科学 中 心 、 中 国 科学 院 文 献 情报 中 心 、 施 普 林 格 . 自然 联合 推出 
中 国 纳米 科学 与 技术 发 展 白 皮 书 


北京 国际 会 议 中 心 举 办 的 2017 年 中 国 国际 纳米 科学 技术 会 议 上 , 国家 纳米 科学 中 心 、 中 国 科学 院 文献 情报 中 心 和 施 普 
林 格 .自然 集团 (Springer Nature) 联 合 发 布 了 《国之 大 器 始 于 毫 末 一 一 中 国 纳米 科学 与 技术 发 展 状况 概览 》 中 英文 白皮书 。 

中 国 投 入 进行 纳米 科研 已 有 数 十 年 时 间 , 已 经 成 为 当今 世界 纳米 科学 与 技术 进步 重要 的 贡献 者 ,部 分 基础 研究 居 国 际 领 
先 水 平 ， 中 国 纳米 科技 应 用 研究 与 成 果 转 化 的 成 效 也 已 初 具 规模 。 这 些 都 与 中 国 在 纳米 科技 领域 的 持续 投入 密切 相关 。 中 国 
纳米 科技 研究 正在 向 原创 性 突破 转变 , 并 更 加 关注 纳米 科技 的 产业 化 应 用 。 

白皮书 分 别 从 原创 论文 数量 、Nano 数据 库 和 专利 产 出 这 三 个 方面 , 将 中 国 与 世界 其 他 主要 纳米 科研 强国 进行 了 对 比 , 揭 
示 了 中 国 纳米 科研 的 优势 与 发 展 特点 。 白 皮 书 还 通过 业内 专家 访谈 , 探讨 了 中 国 纳米 科学 的 发 展 前 景 和 未 来 面临 的 挑战 。 

中 国 科学 院 院 长 、 党 组 书记 白 春 礼 指出 ， 从 计量 学 角度 在 对 纳米 科技 成 果 分 析 的 基础 上 , 进一步 关注 纳米 专利 技术 的 应 
用 情况 ， 关 注 纳米 研发 的 投入 成 效 , 更 深入 地 揭示 和 把 握 纳米 科技 的 发 展 态势 。 

(1) 中 国 纳米 科技 论文 : 产 出 数量 和 质量 均 有 大 幅 提 升 ; 

(2) Nano 数据 库 彰 显 中 国 纳米 研究 的 优势 与 侧重 ; 

(3) 中 国 纳米 专利 : 数量 全 球 第 一 , 但 多 为 本 国 专利 。 

白皮书 指出 , 科研 产 出 和 专利 申请 数量 上 的 迅速 增长 ,都 描绘 出 中 国 纳米 科学 美好 的 发 展 前 景 。 不 论 是 传统 的 强项 学 科 ， 
还 是 新 兴 领 域 , 中 国 纳米 科学 都 表现 出 巨大 的 潜力 。 


(本 刊 讯 ) 


数据 分 析 与 知识 发现 


